Recherche 2018-04-27T1730

Quelle: Recherche 2018-04-27T1730 (etherpad)

sortiertes Original

Was recherchieren wir?

  • Selbstlernpfade erschließen
  • Begriffe, die wichtig sind
  • technische Hürden
  • Tutorials, die dafür hilfreich sind ... oder sich aus den Begriffen ergeben

Der Beruf eines Data Scientists und somit auch wichtige Begriffe:

  • https://www.tagesspiegel.de/wirtschaft/weiterbildung-doktor-data/20815038.html
  • Daten analysieren
  • Daten visualisieren
  • Storytelling
  • Mathematische Modelle
  • Statistische Verfahren
  • Proprietäre Tools
  • Programmiersprachen (Scala, Python, R, Julia, Java)

Vorgehen um mit Machine Learning anzufangen?

  • Verstehen was Data Science ist
  • Verstehen was Machine Learning ist und warum man es in DS einsetzen kann
  • Eine Programmiersprache lernen (Python)
  • Durchmachen eines Tutorials, das ML learning mit Python zeigt
  • Kaggle Beispiele anschauen
  • An Kaggle Wettbewerb teilnehmen

Allgemeines zum Einstieg

  • Was ist Data Science?
    • https://www.edureka.co/blog/data-science-tutorial/
    • https://www.datascience.com/learn-data-science
    • https://intellipaat.com/tutorial/data-science-tutorial/introduction-of-data-science/
  • Was ist Machine Learning?
    • Einsteiger Videokurs Machine Learning (sehr einfach und gut!): https://www.youtube.com/playlist?list=PLZbbT5o_s2xq7LwI2y8_QtvuXZedL6tQU
    • https://www.toptal.com/machine-learning/machine-learning-theory-an-introductory-primer
    • Machine Learning for Humans (einfach erklärt, ohne viel Mathe): https://medium.com/machine-learning-for-humans/why-machine-learning-matters-6164faf1df12
    • Kaggle Machine Learning: https://www.kaggle.com/learn/machine-learning
    • wenige Grundlagen, sehr zentriert auf Kaggle Bedienung,
    • Machine Learning Crash Kurs von Google: https://developers.google.com/machine-learning/crash-course/
    • ML Algorithmen
      • Überwacht
      • unüberwacht
      • Semi-überwacht
    • Tiefenwissen notewendig? Oder nur Anwendungsfälle, Nutzung, Gefahren?
    • Training und Testing
    • Logistische Regression
    • Klassifikation
    • Neuronale Netze
    • Beispiele für Machine Learning in der Praxis

OPTIONAL: Mathematische Grundlagen (für diejenigen die es interessiert, braucht man nicht zwingend um ML anzuwenden)

  • Kompletterklärung aller Mathematik die man für ML braucht: https://github.com/soulmachine/machine-learning-cheat-sheet/raw/master/machine-learning-cheat-sheet.pdf
  • Kompletterklärung aller Mathematik die man für ML braucht: https://github.com/soulmachine/machine-learning-cheat-sheet/
  • Statistik (Korrelation, Varianz, Hypothesentest)
  • Kaggle Statistik für Anfänger: https://www.kaggle.com/kanncaa1/statistical-learning-tutorial-for-beginners
  • Statistik Basics für Data Scientists https://medium.com/@SeattleDataGuy/statistics-review-for-data-scientists-and-management-df8f94760221
  • weiteres Tutorial: https://www.youtube.com/watch?v=FmWz4deqo9g

Sprachen

  • R
    • https://www.analyticsvidhya.com/blog/2016/02/complete-tutorial-learn-data-science-scratch/
  • Python
    • Anfänger Tutorial Python zum Durchklicken auf Codecademy: https://www.codecademy.com/learn/learn-python
      • Gated Progress, gute Lernkontrolle, Basiswissen
    • auch zum angucken: https://www.youtube.com/watch?v=Z1Yd7upQsXY
    • Gutes Walktrough für gängiste Python-Tools: https://www.kdnuggets.com/2018/03/text-data-preprocessing-walkthrough-python.html
    • Python Grudkurs mit Ausrichtung nach Data Science: https://www.datacamp.com/courses/intro-to-python-for-data-science/
      • (beinhaltet auch Grundkurs für NumPy, ein Python Tool für Datenauswertung)
        • https://www.analyticsvidhya.com/blog/2016/01/complete-tutorial-learn-data-science-python-scratch-2/
    • https://machinelearningmastery.com/machine-learning-in-python-step-by-step/
    • Python for Data Science: https://www.datacamp.com/courses/intro-to-python-for-data-science
    • DataScience Tutorial auf Basis von Kaggle und Python https://www.kaggle.com/kanncaa1/data-sciencetutorial-for-beginners
      • Grundkenntnisse sind vorausgesetzt, sehr stark e Konzentration auf Kaggle Plattform, weite Abdeckung, evtl. auszugsweise Intressant?
  • SQL
    • Übersicht: https://www.w3schools.com/sql/
    • Playground um mit SQL zu spielen: https://www.w3schools.com/sql/trysql.asp?filename=trysql_select_all
  • SAS
  • SPSS
  • Julia

Neuronale Netze

  • http://www.neuronalesnetz.de/
    • Eine Einführung
  • ISA
    • Deep Learning
      • Kagglekurs zu Deep Learning: https://www.kaggle.com/learn/deep-learning
      • Deep Learning erklärt: https://www.youtube.com/watch?v=dafuAz_CV7Q&feature=youtu.be
      • Videokurs Deep Learning: https://classroom.udacity.com/courses/ud730
    • Convolutionals Neural Networks (CNN)
      • CNN einfach mit viel Beispielen: An Intuitive Explanation of Convolutional Neural Networks: https://ujjwalkarn.me/2016/08/11/intuitive-explanation-convnets/
      • Vorlesungsreihe Uni Standford CNN (geht tief rein): https://www.youtube.com/playlist?list=PL3FW7Lu3i5JvHM8ljYj-zLfQRF3EO8sYv

Machine Learning tatsächlich anwenden

  • Machine Learning from Start to Finish with Scikit-Learn
    • This notebook covers the basic Machine Learning process in Python step-by-step. Go from raw data to at least 78% accuracy on the Titanic Survivors dataset.
  • Frameworks
    • Caffe (<-- Eher schwergängig, im akademischen Bereich zu finden)
      • Einfaches Getting Started Tutorial ohne viel Code: https://github.com/humphd/have-fun-with-machine-learning
    • TensorFlow (<-- Aktuell am gefragtesten)
      • Offizielles Getting Started with TensorFlow: https://www.tensorflow.org/get_started/eager
  • Datenquellen für ML
    • Kaggle Datasets: https://www.kaggle.com/datasets
    • Wikipedia Liste von Datenquellen für Machine Learning: https://en.wikipedia.org/wiki/List_of_datasets_for_machine_learning_research

Big Data anwenden

  • Framework
  • Hadoop
    • Einstieg in Hadoop (und MapReduce): KOSTENLOSER Kurs: https://de.udacity.com/course/intro-to-hadoop-and-mapreduce--ud617
  • Spark
    • Tutorial zu Apache Spark: https://www.tutorialspoint.com/apache_spark/index.htm

Software:

  • R Studio
    • Wofür kann das genutzt werden?
    • Für Analyse, Visualisierung
    • ==> Open Source Software!
    • https://www.edureka.co/blog/data-science-tutorial/
  • Jupyter

Jupyter als webbasiertes Visualisierungstool:

  • http://jupyter.org
    • Mit Jupyter Notebook kann man in verschiedenen Programmiersprachen Code Beispiele in sogenannte Zellen einfügen und diese dann in Echtzeit verarbeiten lassen
    • Standard Programmiersprache ist Python. Man kann aber auch in z.B. Markdown oder LateX seinen Code dokumentieren
  • -> https://www.datacamp.com/community/tutorials/tutorial-jupyter-notebook
  • In folgendem Tutorial wird die Installation, das Setup und ein Walkthrough zum Jupyter Notebook gezeigt, um dieses webbasierte Tool auf dem eigenen Computer nutzen zu können.
    • https://www.youtube.com/watch?v=HW29067qVWk
  • Jupyter
    • https://www.youtube.com/watch?v=Q0jGAZAdZqM
    • Anaconda
      • Anaconda, eine Open-Source-Distribution zu R und Python. In dem oben verlinkten Tutorial wird die Installation von Conda + Spyder (Python IDE) gezeigt.
    • JupyterLab
      • Jupyter Notebok hat jetzt eine neue Oberfläche in Form des "JupyterLab". Intuitiveres maneuvrieren durch die Oberfläche + Terminal Integration und bessere Übersicht über die eigenen files.
      • https://jupyterlab.readthedocs.io/en/stable/
    • Data Science class mit JupyterLab - Nutzen des JupyterHub/Lab
      • https://github.com/jupyterhub/jupyterhub-deploy-teaching
  • Kurs-Environments
    • JupyterHub / Lab
      • Aufgaben einstellen
      • Leute laden code hoch, assignments etc.
      • Berkley macht das
      • ansible / NBgrader
    • kaggle teacher space

Gesamtkursangebote

  • Inspiration zum Lehrplan
    • Uni Berkley: Foundations of Data Science: Computational Thinking with Python: https://www.edx.org/course/foundations-data-science-computational-uc-berkeleyx-data8-1x?source=aw&awc=6798_1524843807_b5d7552621dd45b3a877aa6bd2e7a324&utm_source=aw&utm_medium=affiliate_partner&utm_content=text-link&utm_term=101248_adgoal+GmbH+-+Content
    • https://lsf.verwaltung.uni-muenchen.de/qisserver/rds?state=wtree&search=1&trex=step&root120162=1%7C254478%7C256991%7C258731%7C268976&P.vx=kurz&noDBAction=y&init=y
  • Big Data Management
  • Knowledge Discovery
  • Algorithm Design
  • Analytics
  • Statistics

Datenaufbereitung

Datenvisualisierung

Der große Hammer

  • Cheat Sheets für Machine Learning, Python und vieles mehr: https://becominghuman.ai/cheat-sheets-for-ai-neural-networks-machine-learning-deep-learning-big-data-678c51b4b463
  • Große Liste mit Lernressourcen zur Machine Learning: https://github.com/ujjwalkarn/Machine-Learning-Tutorials/blob/master/README.md
  • Tipps um bei Kaggle Wettbewerben gut abzuschneiden: https://yanirseroussi.com/2014/08/24/how-to-almost-win-kaggle-competitions/

TBD (to be done) diskutieren

  • Gängige ML-Statistikkurse anschauen, Intervall Minimal-, Normal-Wissen anschauen: Was könnte man gewinnen, wenn man hier schlauer ist als die Konkurrenz?
  • Bedeutung von Videos für unsere Zielgruppe